home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / inet / ietf / 92mar / trafchar-minutes-92mar.txt < prev    next >
Text File  |  1993-02-17  |  14KB  |  320 lines

  1. This is only a rough draft - Megan 04/10/92
  2.  
  3.  Summary of IETF BOF on Network Statistics and Analysis
  4.  
  5.  
  6.  1. Introduction 
  7.  
  8.  The purpose of this BOF is to instigate discussion
  9.  and information exchange within the community concerning
  10.  research in wide-area network traffic measurements.  
  11.  Five brief presentations of related research were made,
  12.  followed by discussion of each.
  13.  
  14.  One theme of the BOF was to discuss exactly what kind 
  15.  of network instrumentation, measurement facilities, and 
  16.  types of measurements should be recommended to the Internet 
  17.  community.  Many of us would like to encourage the managers 
  18.  of stub networks and routers to collect and make available 
  19.  information similar in spirit to the statistics
  20.  that NSFNET makes available through Merit/NSFNET Information 
  21.  Services (NIS.NSF.NET).  We hope this effort eventually
  22.  evolves into an RFC, and eventually leads to a widespread 
  23.  cooperative effort.  We freely admit that the road to success 
  24.  will be an iterative process, fraught with plenty of 
  25.  challenging technical details.
  26.  
  27.  The amount of space consumed by this data completely depends on the 
  28.  type of measurement.  For example, collecting TCP SYN/FIN/RST packets 
  29.  could lead to hundreds of megabytes a day, depending on the collection
  30.  site.  Other methods, like sampling or recording the quantity of bytes
  31.  sent to particular destination networks might require less than a hundred
  32.  kilobytes a month.  In the first case, the volume of trace data can be
  33.  on the order of one to two percent of the traffic itself, with the resulting
  34.  data  possibly having to be sent by tape rather than electronic means to
  35.  the location where the network analysis will happen.
  36.  
  37.  The Internet Activities Board (IAB) recently announced guidelines for 
  38.  measurement activities.  RFC 1262 lists bounds that should be commonly
  39.  acceptable.  However RFC 1262 directly addresses invasive 
  40.  measurement activities, and is only marginally applicable 
  41.  to passive data collection.   We believe we will have to face 
  42.  many new issues hitherto unaddressed.  What we propose must honor 
  43.  the concerns and restrictions that individual networks may impose, 
  44.  yet thorough enough to capture the data that we need to accomplish
  45.  the research goals, and should allow for flexibility.  An example
  46.  of a difficult issue to resolve is the privacy when using network
  47.  addresses, in particular as workstations with their own IP addresses
  48.  frequently map to individual users.  Our efforts should address
  49.  privacy measures, that still allow professional research to be
  50.  conducted.
  51.  
  52.  Most likely, each of us has a different idea as to the data we need
  53.  to have measured to achieve our various objectives.  Below,  
  54.  we summarize these motivations and give a preliminary list of the 
  55.  measurements and trace data that we believe should be collected or capturable.  
  56.  We encourage you all to add to both the motivation list and chart 
  57.  of traces and measurements, and mail them back to wanchar@usc.edu 
  58.  for inclusion in this document.
  59.  
  60.  
  61.  2.  Motivations
  62.  
  63.  2.1 Artificial workload models (Danzig and Jamin)
  64.  
  65.  Good artificial workload models are needed to drive simulations of
  66.  new resource management algorithms, flow control algorithms, and 
  67.  routing algorithms.  The artificial workload models that we are 
  68.  developing consist of an application specific model (ftp, telnet, nntp, etc.)
  69.  and an application arrival rate model that is stub network dependent.
  70.  So far we have been able to identify applications from their port
  71.  numbers.  As new transport protocols emerge, we may need other mechanisms.
  72.  Creating the application specific model requires full traces of TCP/IP
  73.  packet headers.  Creating the stub network specific model requires 
  74.  traces of TCP SYN/FIN/RST packets only.  Most of our data has been collected
  75.  with statspy or tcpdump from a machine on the same
  76.  Ethernet segment as the stub network's gateway to the backbone.  
  77.  We would like to collect SYN/FIN/RST traces from hundreds of stub 
  78.  networks.  Given current network bandwidth and usage, these traces 
  79.  can range to 200MB/day.
  80.  
  81.  
  82.  2.2 Network planning (Braun and Claffy)
  83.  
  84.  SDSC and UCSD are undertaking a network analysis effort
  85.  with multiple goals of immediate applicability
  86.  and interest to the Internet environment, with respect
  87.  to both performance and ubiquity.
  88.  
  89.  Areas of current investigation include: measurements and
  90.  analysis of resource consumption and latencies, network
  91.  performance degradation under resource starvation, and
  92.  end-to-end performance testing.  We have determined, for
  93.  selected data sets, characteristics of network usage by
  94.  application, bandwidth requirements, and geographic distribution.
  95.  We are also exploring the role that granularity plays in traffic
  96.  analysis, both in statistical sampling of traffic on an
  97.  operational basis, and in the level of detail
  98.  one presents data to optimize the information/noise ratio.
  99.  
  100.  We are currently analyzing data from a variety of
  101.  sources, including national networks as well as federal network
  102.  interconnection points of multiple agencies.
  103.  Statistical examination and manipulation of data reveals
  104.  significant traffic correlations, trends, and dependencies.
  105.  
  106.  We are also undertaking collaborative efforts with Toshiya
  107.  Asaba and the WIDE statistics working group in Japan.
  108.  In particular, Asaba is largely responsible for the
  109.  analysis scripts which facilitated statistical 
  110.  examination and data presentation.  We first intended
  111.  the scripts for use in a study of international traffic 
  112.  between Japan and other nations.  We were able to adapt 
  113.  the script for use in subsequent studies.  Building a 
  114.  public library of usable scripts for different analysis 
  115.  tasks requires agreement on data formats in multiple 
  116.  phases of collection and analysis.  We would like to
  117.  see a collaborative effort within the community toward
  118.  accomplishing such a task.  
  119.  
  120.  Further information and slides are available by
  121.  sending requests to the SDSC Applied Network Research
  122.  Group, via hwb@sdsc.edu or kc@sdsc.edu
  123.  
  124.  2.3 Stateful router studies (Estrin and Mitzel)
  125.      [Related information, though not participated at the BOF.]
  126.  
  127.  The current Internet is based on a stateless (datagram) architecture.
  128.  However, many recent proposals rely on the maintenance of state
  129.  information within network routers, leading to our interest in the
  130.  implications of a ``stateful'' network layer.
  131.  We wish to collect internetwork traffic traces at the border routers
  132.  of stub and transit networks, and use this data to evaluate, or
  133.  predict, the effects of design alternatives for stateful architectures.
  134.  
  135.  An important design decision is the level at which conversations are
  136.  defined.  This determines the granularity of control over the network
  137.  traffic, and affects the scalability of the system.  We are interested in
  138.  several granularities of conversations, ranging from
  139.  a single TCP application association, up to aggregation of all traffic
  140.  between two communicating networks.  We will use the data to estimate the
  141.  number of active conversations at a router, and derive the
  142.  storage requirements for the associated conversation state table. We
  143.  will analyze the feasibility of fine grain control at the network
  144.  periphery and deeper within the network. 
  145.  
  146.  In conventional IP, the only lookup function normally required for
  147.  packet forwarding is a routing table lookup.  This has been recognized
  148.  as a bottleneck in the forwarding process [Feldmeier, Jain]. 
  149.  It has been shown that the introduction of an LRU cache can substantially 
  150.  improve the efficiency of the packet forwarding process.  Route 
  151.  caching is used in many existing routers.  However,  unlike the 
  152.  stateful schemes investigated here, which require lookup based 
  153.  on source--destination pairs, current route caches are based only 
  154.  on destination host or network.  It is not intuitively obvious whether 
  155.  the solutions developed for routing table caches can be applied here.  
  156.  We will use our network traffic traces to
  157.  perform trace driven simulations of an LRU cache, for different
  158.  conversation granularities, and thereby assess traffic locality and
  159.  the benefits of caching.
  160.  
  161.  
  162.  2.4 Network monitoring (Schwartz and Pu)
  163.  
  164.  Schwartz proposed that a group of a dozen of us or so agree to
  165.  collaborate to collect traces and measurements.  He also described
  166.  his recent study of FTP traffic which showed that tools to
  167.  locate copies of large, replicated files may reduce wide area
  168.  network traffic due to FTP.  The unique aspect of Schwartz's traces
  169.  was that it actually peered at application level data in a 
  170.  way that preserved privacy.
  171.  
  172.  
  173.  2.5 Host reliability and availability (Long)
  174.  
  175.  Long summarized his study of internet host reliability and 
  176.  availability.  This was the only active form of tracing
  177.  discussed during the BOF.
  178.  
  179.  
  180.  3. Measurements and traces
  181.  
  182.  Here is a first pass at the type of data we would like to see
  183.  collected, and what studies would use this data.  These categories
  184.  need to be detailed, and new categories probably need to be 
  185.  filled in.  The table identifies four types of data to collect.
  186.  These include captured packets and packet headers (excluding
  187.  data), headers of selected packets, summary data, and routing and
  188.  congestion data.  The first three types of data are pretty well
  189.  defined, while the last is much less so.  Although we can collect such 
  190.  data from anywhere in the Internet, we classify it into three
  191.  classes: entrances to stub networks, regional and backbone
  192.  routers, and international gateways.
  193.  
  194.                                    TYPE OF DATA 
  195.  
  196.               | Captured   |TCPDUMP     |NSF.NIS.NET |Router      |
  197.  M            | Packets &  |Conversation|LIKE DATA   |Timing and  |
  198.  E            | Packet     |SYN/FIN/RST |Data        |Queue length|
  199.  A            | Headers    |Traces      |            |(MIB)       |
  200.  S   --------------------------------------------------------------
  201.  U            |Workload    |Workload    |            | Congestion |
  202.  R   STUB     |models      |models      |            | studies    |
  203.  E   NETWORKS |            |            |            |            |
  204.  M            |Workload    |            |Workload    |            |
  205.  E            |Planning    |            |Planning    |            |
  206.  N    --------------------------------------------------------------
  207.  T            |            |            |            |            |
  208.      REGIONAL |            |            |            |            |
  209.        AND    |Stateful    |            |            | Congestion |
  210.      BACKBONE |Routers     |            |            | studies    |
  211.  P   NETWORKS |            |            |            |            |
  212.  O            |Workload    |            |Workload    |            |
  213.  I            |Planning    |            |Planning    |            |
  214.  N   --------------------------------------------------------------
  215.  T            |            |            |            | Congestion |
  216.      INTER-   |            |            |            | studies    |
  217.      NATIONAL |            |            |            |            |
  218.      GATEWAYS |            |            |            |            |
  219.               |Workload    |            |Workload    |            |
  220.               |Planning    |            |Planning    |            |
  221.      --------------------------------------------------------------
  222.                          Table 1.
  223.  
  224.  
  225.  4. Trace formats and tools
  226.  
  227.  We need to define the storage format for trace and statistical data.
  228.  For some formats, like tcpdump or statspy, the format is already pre-defined.
  229.  Almost certainly we should adopt NSFNET's current format for the type of data
  230.  they collect.  We also need to define ``sanitizer'' programs that implement the
  231.  security concerns of particular networks.
  232.  
  233.  There is an operations area in IETF which has been defining some standard 
  234.  transport and storage formats for various kinds of operational data. 
  235.  
  236.  Dealing with gigabytes of data is results in a serious resource impact.
  237.  An effort has to be undertaken to identify schemes to make such large
  238.  quantities of data useful, possibly via multiple levels of data reduction.
  239.  
  240.  
  241.  5. Mailing list: 
  242.  
  243.  The current composition of wanchar@usc.edu is listed below.
  244.  Change requests can be sent to wanchar-request@usc.edu
  245.  
  246.  
  247.          afs@germany.eu.net
  248.          ala@merit.edu
  249.          amr@nri.reston.va.us
  250.          asaba@isr.recruit.co.jp
  251.          bac@sdsc.edu
  252.          becker@ans.net
  253.          boss@sunet.se
  254.          brunner@practic.com
  255.          calton@cs.columbia.edu
  256.          carson@utcs.utoronto.ca
  257.          cbagwell@gateway.mitre.org
  258.          chris@wugate.wustl.edu
  259.          cjw@nersc.gov
  260.          cward@westnet.net
  261.          dan@merlin.dev.cdx.mot.com
  262.          danzig@usc.edu
  263.          darrell@cse.ucsc.edu
  264.          estrin@usc.edu
  265.          fair@apple.com
  266.          golding@cis.ucsc.edu
  267.          goodwin@psc.edu
  268.          gruth@bbn.com
  269.          henry@oar.net
  270.          hwb@sdsc.edu
  271.          jamin@usc.edu
  272.          jfl@nersc.gov
  273.          jgodsil@ncsa.uiuc.edu
  274.          jkay@cs.ucsd.edu
  275.          jonchy@dxcoms.cern.ch
  276.          jrc@uswest.com
  277.          jun@wide.ad.jp
  278.          kc@sdsc.edu
  279.          kfall@cs.ucsd.edu
  280.          korz@bach.cs.columbia.edu
  281.          kr@concord.com
  282.          lear@sgi.com
  283.          lindahl@violet.berkeley.edu
  284.          lwinkler@anl.gov
  285.          mak@cnd.hp.com
  286.          mak@merit.edu
  287.          mankin@gateway.mitre.org
  288.          martin@cearn.cern.ch
  289.          medin@nsipo.nasa.gov
  290.          morris@ucar.edu
  291.          mws@sparta.com
  292.          nevil@aukuni.ac.nz
  293.          nitzan@ws1013.nersc.gov
  294.          ogud@cs.umd.edu
  295.          peter@usc.edu
  296.          peterd@cc.mcgill.ca
  297.          polyzos@cs.ucsd.edu
  298.          probins@bubba.wpd.sgi.com
  299.          pushp@cerf.net
  300.          rama@erlang.enet.dec.com
  301.          rbutler@ncsa.uiuc.edu
  302.          rcollet@icm1.icp.net
  303.          reschly@brl.mil
  304.          rgc@qsun.att.com
  305.          rin@qsun.att.com
  306.          rj@sgi.com
  307.          schwartz@cs.colorado.edu
  308.          sherk@sura.net
  309.          stats@nic.near.net
  310.          suelin@ibm.com
  311.          tmwalden@saturn.sys.acc.com
  312.          tom@cic.net
  313.          topolcic@nri.reston.va.us
  314.          van@horse.ee.lbl.gov
  315.          vcerf@nri.reston.va.us
  316.          vern@horse.ee.lbl.gov
  317.          vikas@jvnc.net
  318.          vu@polaris.dca.mil
  319.          whaley@ncsc.org
  320.